FILTER MODE ACTIVE

#оптимизатор Muon

Найдено записей: 2

#оптимизатор Muon02.08.2025

MIT представил метод стабильного обучения трансформеров с помощью липшицевых ограничений и оптимизатора Muon

Исследователи MIT разработали метод стабильного обучения больших трансформеров через липшицевы ограничения и спектральную регуляцию весов с оптимизатором Muon, исключая необходимость нормализаций.

#оптимизатор Muon23.04.2025

Оптимизатор Muon от Microsoft значительно ускоряет гроккинг в трансформерах

Исследователи Microsoft показали, что оптимизатор Muon существенно ускоряет гроккинг в моделях трансформеров, обеспечивая более быстрый переход от запоминания к обобщению по сравнению с AdamW.